¿La inteligencia artificial engaña para alcanzar sus objetivos?
Utilizo la mayoría de los principales modelos de inteligencia artificial, pero el más reciente de Anthropic se está convirtiendo en mi favorito.
Una nueva incorporación al consejo.
La comunidad en línea reaccionó de manera intensa al enterarse de que Claude, desarrollado por Anthropic, tiene la capacidad de informar sobre actividades “inmorales” a las autoridades en determinadas circunstancias. Sin embargo, es poco probable que los usuarios se enfrenten a esta situación.
Anthropic afirma que su modelo Claude Opus 4 intenta chantajear con frecuencia a los ingenieros de software cuando intentan desconectarlo.
Cuando el modelo anterior de Anthropic, Claude, jugó Pokemon Red, pasó "docenas de horas" atascado en una ciudad y tuvo dificultades para reconocer a los personajes no jugables. Con el lanzamiento de Claude 4 Opus, el equipo observó una mejora en la memoria a largo plazo y en las habilidades de planificación de Claude.